ChinaXiv 合作 #AFIJ 


第 39 卷 第 10 其 计算 机 应 用 研究 36 No. 10 
录用 定稿 Application Research of Computers Accepted Paper 


基于 局 部 图 结构 的 链接 预测 模型 


赵 思 云 ， 黄 增 峰 
(复旦 大 学 大 数据 学 院 ， 上 海 200433) 


摘 要 : 链接 预测 是 基于 已 知 的 部 分 图 数据 来 预测 节点 之 间 未 被 观测 到 的 边 或 者 未 来 可 能 产生 的 边 的 任务 。 链 接 
预测 领域 目前 最 表现 最 佳 的 方法 是 ， 对 所 有 目标 节点 对 提取 周围 的 低 阶 邻居 小 图 ， 使 用 小 图 做 图 分 类 预测 链接 的 
方法 。 然 而 ， 这 种 方法 的 稳定 性 和 性 能 受 限 于 图 的 局 部 结构 特异 性 。 提 出 的 方法 在 上 述 算法 的 基础 上 进行 了 改进 。 
该 算法 根据 目标 节点 周围 节点 的 结构 特征 计算 周围 节点 优先 值 ， 根 据 优 先 值 利 选 出 高 优先 值 的 节点 集合 ， 并 同时 
选 出 一 定数 量 的 随机 节点 ， 共 同 组 成 封闭 子 图 ， 提 取 子 图 特征 进行 链接 预测 。 实 验 表 明 ， 该 算法 有 效 提高 了 在 不 
同乡 上 # 构 的 图 数据 上 选 出 的 小 图 的 精准 性 和 稳定 性 ， 显 著 提 升 了 链接 预测 的 效果 。 
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Link prediction method based on local topological structure 


Zhao Siyun, Huang Zengfeng 
(School of Data Science, Fudan University, Shanghai 200433, China) 


Abstract: Link prediction is a task of predicting unobserved edges between nodes or edges that may be connected in the 
future based on partial graph data. The current state-of-art method of link prediction is to extract the surrounding low-hop 
subgraphs for all target node pairs and perform graph classification algorithm on the subgraphs to predict the focal link. 
However, its stability and performance are limited by the diversity of local topological structures. This paper proposed a 
method to improve the above algorithm. The algorithm calculated the priority value of the surrounding nodes according to 
their topological feature, selected the most important nodes among the surrounding nodes and a certain number of random 
nodes to form a closing subgraph together, then extracted feature from the closing subgraph to predict the link. Experiments 
show that the algorithm ensures the accuracy and stability of intelligently extracting subgraphs on graph data of different 
structures, and significantly improves the accuracy of link prediction. 
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0 引言 较 好 的 对 链接 进行 预测 。 在 图 卷 积 神经 网 络 世 出现 之 后 ， 

E 通过 图 卷 积 的 方法 ， 先 结合 邻居 节点 特征 对 每 个 节点 的 初始 
在 高 度 信息 化 的 现代 社会 ， 数 据 有 很 多 不 同 的 表现 形式 ， ”特征 向 量 进行 卷 积 变 换 ， 再 用 得 到 的 新 特征 向 量 进行 分 类 预 
其 中 恬 数据 在 生物 J、 医疗 外 、 社 交 网 络 申 、 知 识 补 全 时 等。 ” 测 ， 将 链接 预测 任务 的 效果 提升 了 很 大 一 个 台阶 。 由 于 图 卷 
领域 都 具有 非常 好 的 应 用 ， 而 链接 预测 则 是 图 数据 分 析 中 比 职 神经 网 络 的 卷 积 层 数 往往 比较 低 ， 对 于 每 一 个 节点 而 
较 重 要 的 任务 之 一 。 图 数据 由 节点 和 边 构 成 ， 每 个 节点 表示 “算法 辐射 的 跳 数 范 围 比较 有 限 ， 所 以 说 明 图 数据 的 局 部 拓扑 
不 同 的 实体 ， 而 边 则 表示 实体 之 间 的 各 种 关联 。 在 实际 情况 。 结构 对 链接 预测 任务 具有 比较 高 的 有 效 性 。 近 年 来 ，Singh 
中 ， 图 数据 往往 都 是 不 完整 和 动态 变化 的 ， 本 文 在 某 个 时 刻 。 等 人 HJ 提出 了 基于 边 集 两 次 预测 的 链接 预测 模型 ， 认 为 原 
观测 到 的 图 数据 可 能 具有 片面 性 和 时 效 性 ， 所 以 如 何 依 据 已 。 始 的 训练 集中 的 边 与 真实 数据 存在 较 大 差异 的 现象 是 影响 链 


了 


, 


知 的 部 分 图 数据 对 真实 的 节点 关联 情况 进行 预测 就 变 得 尤为 ”” 接 预测 准确 性 的 主要 原因 。 他 们 使 用 一 种 方法 对 训练 集中 的 

重要 。 边 进行 一 次 预测 补 全 后 ， 再 选用 另 一 相同 或 不 Et 基 
传统 的 链接 预测 算法 主要 是 启发 式 的 算法 ， 从 节点 的 相 ”于 补 全 后 的 边 集 来 做 链接 预测 。Li 等 人 中 提出 了 基于 距离 

似 性 出 发 ， 认 为 具有 相似 背景 或 者 处 于 相似 环境 中 的 节点 具 ”增强 的 链接 预测 方法 ， 在 全 图 中 选 出 一 些 较为 重要 的 节点 ， 


有 更 大 的 倾向 会 建立 关联 关系 ， 而 在 已 知 图 中 距离 较 远 、 所 ”并 计算 其 他 节点 到 这 些 节 点 的 距离 参数 ， 将 这 些 参数 加 入 神 
处 拓扑 环境 差异 较 大 的 节点 对 则 在 直观 上 来 看 毫 无 联系 ,也 ”经 网 络 中 进行 预测 。 
就 被 认为 建立 连 边 的 可 能 性 更 小 。 这 一 类 的 方法 在 特定 的 领 Zhang 等 人 0 提出 了 SEAL 模型 ， 该 工作 证 明了 所 有 启 
域 仍然 具有 很 好 的 表现 ， 例 如 ， 张 玲玲 等 人 国 将 启发 式 的 自 发 式 的 算法 均 可 用 中 心 节 点 的 上 跳 子 图 做 近似 ， 并 提出 了 抽 
法 与 节点 本 身 的 特性 结合 ， 在 对 研发 者 的 潜在 合作 者 进行 链 取 目 标 节 点 对 周围 的 邻居 k 跳 小 图 ， 对 小 图 做 图 分 类 进行 链 
接 预 测 时 取得 了 不 错 的 效果 。 基 于 图 嵌入 学 习 的 方法 553 也 妆 预 测 的 方法 ， 也 使 得 链接 预测 任务 在 稳健 性 和 准确 性 上 取 
被 用 于 进行 链接 预测 任务 。 无 监督 的 图 嵌入 算法 会 通过 学 习 ” 得 了 很 大 的 突破 。 
区 
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到 中 的 拓扑 结构 ， 将 在 图 上 距离 比较 近 或 者 关联 比较 紧密 、 上 述 方法 各 自从 不 同 的 角度 对 链接 预测 算法 进行 了 改善 
邻居 结构 比较 相似 的 节点 赋予 相近 的 特征 向 量 ， 然 后 用 两 个 和 提升 ， 但 是 仍然 存在 一 些 局 限 性 。 图 数据 的 稠密 程度 、 全 
节点 的 特征 向 量 作为 输入 训练 一 个 简单 的 0-1 分 类 器 就 能 比 结构 特征 、 局 部 连 边 结构 在 不 同 背景 的 数据 集 上 差异 非常 
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大 。 所 以 本 文 希望 ， 在 目前 表现 最 佳 的 “提取 子 图 + 图 分 类 ” 
的 链接 预测 框架 下 ， 图 分 类 端 输入 的 子 图 能 更 加 规范 ， 这 就 
要 求 它 至 少 具 有 相近 的 节点 个 数 。 另 一 方面 ， 目 标 节点 对 的 周 
围 重要 程度 高 的 节点 不 一 定位 于 它们 的 低 跳 邻居 里 ， 所 以 本 文 
希望 更 加 智能 的 找到 链接 预测 任务 中 重要 程度 更 高 的 节点 。 

本 文 基于 SEALI9 提 出 的 链接 预测 框架 进行 了 改进 ， 提 
出 了 一 种 更 有 针对 性 的 固定 节点 个 数 的 子 图 提取 方法 ， 在 不 
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利用 图 网 络 结构 中 的 所 有 信息 会 非常 困难 ， 而 且 计 算 代价 很 
大 。 图 内 入 方法 k7"220 在 这 个 时 候 就 应 运 而 生 ， 它 的 本 质 是 
希望 通过 低 维 的 向 量 来 表达 每 个 节点 中 蕴涵 的 图 结构 信息 。 
忆 此 ， 好 的 图 嵌入 方法 可 以 在 学 到 了 图 中 每 个 节点 的 图 嵌入 
句 量 特征 之 后 ， 能 够 通过 这 些 节 点 特征 向 量 尽 可 能 准确 的 反 
推出 完整 的 图 网 络 结构 。 变 分 图 自 编码 器 模型 门将 节点 特征 
矩阵 的 每 一 行 看 做 是 一 个 高 维 高 斯 分 布 的 随机 变量 ， 构 建 模 


同 稠密 程度 和 拓扑 结构 的 局 部 区 域 上 ， 可 以 兼顾 随机 性 和 特 


型 学 习 高 斯 分 布 的 均值 和 方差， 通过 高 斯 分 布 采样 得 到 每 个 


异性 的 选择 重要 的 周围 节点 进入 封闭 子 图 ， 同 时 相对 应 的 调 
整 了 适合 的 节点 编号 与 图 分 类 方法 ， 显 著 的 提升 了 模型 的 性 
能 。 总 的 来 说 ， 本 文 的 贡献 主要 包括 以 下 三 点 : 

a) 基于 “提取 子 图 + 图 分 类 ”的 链接 预测 框架 ， 结 合 个 
性 化 PageRank(personalized PageRank，PPR) 等 启发 式 方法 ， 


提出 了 一 种 端 到 端的 链接 预测 模型 ， 应 对 不 同 稠密 程度 和 不 
同 背景 的 图 数据 ， 发 现 周围 节 点 对 于 中 心 节点 的 重要 性 差异 ， 


T RWIE RE Zaa, AP n RRDA E, d 表示 特征 维 
数 ， 之 后 使 用 Z.Z 作为 解码 器 还 原 出 原始 的 邻接 矩阵 。 
Node2vectg 是 基于 随机 游 走 的 无 监督 图 侍 入 方法 ， 它 用 图 上 
的 连 边 权 重 来 构建 从 每 个 节点 出 发 走 到 其 他 邻居 节点 的 概率 
E 阵 ， 然 后 以 此 在 图 上 采样 出 大 量 随 机 游 走 序列 ， 同 时 使 用 
负 采 样 的 方式 ， 随 机 抽取 一 些 在 图 上 相距 非常 远 的 节点 对 


zm 
IT 
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通过 优化 节点 特征 向 量 的 内 积 使 得 距离 越 近 的 节点 特征 FF 


UE 


能 的 对 大 图 进行 预 处 理 和 子 图 提取 ， 并 最 终 通过 图 分 类 算 


f 


可 EH, 
越 相 似 ， 而 距离 越 远 的 节点 特征 向 量 越 无 关 。 因 此 ， 图 嵌入 
方法 所 得 到 的 节点 特征 向 量 往往 天 然 与 图 上 的 连 边 情况 息 息 
相关 ， 使 用 图 散 入 方法 之 后 ， 再 将 目标 节点 对 的 两 个 节点 特 


法 得 到 链接 预测 结果 。 

b) 提出 了 一 种 针对 目标 节点 对 的 封闭 子 图 提取 方法 ， 
综合 目标 节点 对 周围 节点 的 全 局 重要 性 和 局 部 重要 性 ， 使 每 
个 提取 出 的 封闭 子 图 具有 更 高 的 表达 力 和 相同 的 规模 ， 提 高 


了 在 链接 预测 场景 下 图 分 类 任务 的 输入 规范 性 。 

c) 在 多 个 不 同 背景 的 数据 集 上 进行 大 量 实 验 ， 并 与 多 个 
有 代表 性 的 基线 模型 进行 实验 对 比 ， 得 到 了 非常 优秀 的 效果 。 
基于 子 图 提取 和 图 分 类 的 链接 预测 框架 如 图 1 所 示 。 
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图 1 基于 子 图 提取 和 图 分 类 的 链接 预测 框架 


Fig. 1 A link prediction framework base on subgraph extraction and 


graph classification 


1 ”相关 工作 
1.1 启发 式 方法 
启发 式 的 方法 是 最 早 被 用 来 做 链接 预测 的 传统 方法 之 一 ， 


这 是 基于 一 些 可 以 计算 的 图 数据 上 的 静态 特征 描述 节点 之 间 的 
相似 性 ， 并 通过 这 些 相似 性 对 节点 间 是 否 存在 边 相连 进行 预测 
的 方法 的 统称 。 总 的 来 说 ， 这 类 方法 认为 节点 相似 性 越 高 的 节 


点 对 存在 边 的 概率 越 高 ， 反 之 越 低 。 局 发 式 方法 可 以 粗略 的 分 
为 一 阶 方法 、 二 阶 方法 和 高 阶 方法 。 顾 名 思 义 ， 一 阶 的 启发 式 


方法 在 计算 过 程 中 只 需要 用 到 两 个 节点 之 间 的 一 阶 邻 居 ， 如 共 
同 邻居 个 数 法 、Jaccard 系数 法 、 择 优 连接 法 [9 等 ， 二 阶 的 启 
发 式 方法 最 多 用 到 两 个 目标 节点 的 二 度 邻 居 ， 如 AA(Adamic- 


征 输入 简单 的 分 类 器 模型 ， 就 往往 能 得 到 很 好 的 效果 。 这 一 
类 的 图 散 入 方法 聚焦 学 习 图 网 络 结构 ， 但 是 无 法 将 节点 的 原 
生 特征 与 图 的 拓扑 结构 综合 到 一 起 进行 学 习 ， 所 以 还 是 损失 
了 一 定 的 信息 和 学 习 效 率 。 本 文 提出 的 模型 通过 能 够 综合 节 
点 的 原生 特征 和 局 部 拓扑 结构 ， 很 好 的 解决 了 这 一 问题 。 
1.3 图 卷 积 神经 网 络 
图 卷 积 神经 网 络 也 是 图 数据 上 的 一 类 可 扩展 性 和 表达 力 
度 都 很 高 的 模型 。 这 一 类 方法 的 基本 思想 是 在 图 结构 中 通过 
邻居 关系 来 传递 并 聚合 信息 。 一 般 来 说 ， 图 卷 积 神经 网 络 类 
方法 会 先 聚 合 每 个 节点 的 周围 所 有 邻居 特征 ， 再 将 聚合 后 的 
言 息 与 目标 节点 当前 的 信息 进行 加 权 合 并 ， 然 后 使 用 这 些 信 
息 同 时 更 新 图 上 所 有 节点 的 特征 向 量 。 在 图 卷 积 神经 网 络 类 
的 算法 研究 中 ， 不 同 的 加 权 方 法 、 采 样 方法 、 聚 合 方法 等 被 
纳入 考虑 进行 了 研究 。Kipf 等 人 0 提出 的 GCN 模型 ， 通 过 
使 用 均值 聚合 来 近似 计算 的 方式 ， 把 图 的 卷 积 操作 推广 到 了 
图 上 的 谱 域 上 。 为 了 解决 图 的 动态 更 新 间 题 以 及 不 同 节点 邻 
居 数 量 分 布 不 均匀 的 问题 ， Hamilton 等 人 四 提出 了 
GraphSAGE 模型 ， 该 方法 采用 有 放 回 抽样 的 方式 在 每 次 聚 
合 操作 时 对 每 个 节点 抽取 相同 数量 的 邻居 节点 ， 将 所 有 所 抽 
取 的 邻居 节点 特征 与 中 心 节 点 特征 合并 ， 并 逐 点 更 新 下 一 层 
的 节点 特征 。GAT 模型 U0 在 图 卷 积 神经 网 络 中 引入 了 注意 
力 机 制 ， 它 考虑 到 聚合 过 程 中 每 个 邻居 节点 不 同 的 相对 重要 
性 ， 通 过 学 习 多 个 注意 力 参 数 来 控制 聚合 过 程 中 邻居 节点 的 
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相对 权重 ,使 得 图 卷 积 变 得 更 加 智能 。GIN 模型 [9 提 出 了 
一 种 新 型 的 聚合 合并 方式 ， 使 得 图 卷 积 神经 网 络 模型 可 以 在 
x 别 同 构图 的 问题 上 做 到 接近 Weisfeiler-Lehman 测试 P3] 的 
效果 ， 同 时 也 在 图 卷 积 神经 网 络 的 传统 任务 中 达到 了 非常 良 


好 的 性 能 。 然 而 基于 全 图 的 图 卷 积 神经 网 络 方法 由 于 训练 时 
读 入 的 视野 范围 非常 大 ， 而 无 法 聚焦 目标 节点 对 周围 的 小 图 


pu 


Adar)P! ff RA(resource allocation) 9; 高 阶 的 启发 式 方法 可 以 用 
到 两 个 目标 节点 的 三 度 及 以 上 的 所 有 和 邻居， 最 常见 的 有 
PageRankl"l, SimRankl5l, Katz 系数 法 9 等。 启发 式 方法 的 
局 限 性 也 非常 明显 ， 即 基于 静态 图 计算 的 指标 特征 在 不 同 的 
数据 上 都 有 比较 大 的 差异 ， 而 且 单 个 的 指标 往往 无 法 比较 全 
而 的 衡量 拓扑 结构 的 多 维特 征 ， 所 以 表达 力度 也 比较 有 限 。 
本 文 提出 的 模型 可 以 基于 不 同 数据 的 特点 智能 的 训练 链接 预 


x Fi 

的 局 部 拓扑 结构 ， 因 此 忽略 了 很 多 局 部 特征 。 本 文 的 模型 通 
过 提取 目标 节点 对 周围 的 邻居 小 图 进行 训练 的 方式 ， 使 得 模 
型 能 够 更 多 的 关注 到 目标 节点 对 周围 的 局 部 网 络 结构 的 细微 
特征 ， 从 而 更 准确 的 对 链接 是 否 存在 进行 预测 。 
1.4 SEAL 
SEAL 模型 09 是 近年 来 最 有 突破 性 的 链接 预测 模型 之 一 ， 
是 目前 为 止 在 链接 预测 任务 上 表现 最 佳 的 模型 ， 也 是 本 文 的 


T 


测 模型 ， 同 时 也 综合 了 多 个 维度 的 启发 式 方法 ， 比 较 全 面 的 


主要 对 比 模型 之 一 。SEAL 开创 性 的 提出 了 基于 “封闭 小 图 


省 述 了 节点 之 间 的 相关 关系 。 
1.2 基于 图 榜 入 方法 的 链接 预测 
图 数据 是 一 种 非常 高 维 的 非 欧 数 据 结 构 ， 所 以 想 要 直接 


提取 + 图 分 类 ”的 链接 预测 框架 ， 证 明了 所 有 的 高 阶 或 低 阶 
的 启发 式 特 征 均 能 够 用 目标 节点 对 的 低 阶 邻居 子 图 做 近似 ， 
从 而 说 明了 对 于 链接 预测 任务 而 言 ， 每 一 个 目标 节点 对 周转 
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为 “封闭 小 图 提取 + 图 分 类 ”的 框架 提出 了 理论 支持 。 同 时 ， 
SEAL 提出 了 节点 编号 对 于 该 框架 的 重要 性 ， 它 认为 邻居 节 


点 
相 


来 表示 在 封闭 小 图 中 不 同 地 位 的 节点 ， 相 同 


点 


可 以 共享 相同 的 参数 。 


大 部 分 数据 集 上 都 表现 极 佳 ， 但 是 粗暴 地 直接 取 跳 子 图 也 
方式 并 不 能 很 好 的 发 挥 出 封闭 子 图 表达 力度 的 极限 ， 反 1 


gb 


图 


Ex 
局 


" 
下 


EER 
A. 


加 
名 


的 
可 
能 会 因为 选取 了 无 关 或 者 比较 边缘 的 节点 ， 导 致 学 习 封 闭 子 
接 
选取 的 上 跳 子 图 规模 大 小 会 随 着 不 同 目标 节点 对 所 处 位 置 的 


更 加 不 规范 ， 在 全 图 稠密 程度 差异 较 大 的 情况 下 ， 选 出 的 封 


解决 了 这 几 个 问题 。 一 方面 ， 本 文 提出 的 模型 可 以 在 不 同 
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子 图 包含 了 进行 链接 预测 所 需要 的 所 有 高 阶 和 低 阶 的 特征 ， ”2.2 边 筛 选 器 


边 筛选 器 是 对 图 中 的 边 进行 筛选 的 模块 。 在 非常 稠密 的 


(包括 直接 邻居 和 高 阶 邻居 ) 对 于 目标 节点 的 重要 性 是 各 不 
同 的 ， 需 要 在 小 图 进行 区 别 ， 因 而 提出 了 “ 双 半 径 编 号 法 ” 
立 (编号 ) 的 节 
共享 同一 个 特征 向 量 ， 这 样 在 对 封闭 小 图 进行 图 分 类 时 就 


区 


虽然 在 目标 节点 对 周围 提取 封闭 子 图 进行 训练 的 方法 在 


ci 


的 结构 效率 变 低 或 者 效果 受到 噪声 干扰 。 另 一 方面 ， 直 


图 中 ， 总 边 数 的 数量 级 非常 大 ， 会 导致 封闭 子 图 提取 步 又 的 
计算 量 非 常 大 ， 同 时 也 会 使 封闭 子 图 占用 很 大 的 存储 空间 。 
本 文 可 以 通过 设置 边 科 选 器 模块 解决 这 个 问题 ， 边 筛选 器 模 
块 可 以 过 滤 掉 训练 集中 的 一 些 重 要 程度 不 高 的 边 ， 保 留 比 较 
核心 的 边 ， 在 保持 核心 拓扑 结构 不 变 的 情况 下 减 小 计算 量 ， 
是 高 算法 的 效率 。 具 体 做 法 如 下 : 
对 于 任意 的 5&4#E ， 本 文 计算 它 的 两 个 端点 vv 之 间 的 
Jaccard 系数 作为 这 个 边 的 优先 级 ， 即 
_ re)are)) 
“roy UTC) u) 


其 中 ， DOO 表示 节点 "的 一 阶 邻 居 节 点 集合 。Jaccard 系数 越 


S(v;,v;) 


部 连 边 稠密 程度 而 改变 。 这 也 使 得 后 续 的 图 分 类 任务 变 得 


子 图 中 的 节点 数量 的 方差 就 会 很 大 ， 在 同一 个 图 分 类 模型 


高 ， 说 明 两 节点 之 间 的 关联 紧密 程度 越 大 ， 这 个 边 存 在 的 重要 
性 就 越 高 。 本 文 对 所 有 边 的 Jaccard 系数 进行 排序 ， 并 保留 
Ux] p 条 边 作 为 训练 集中 输入 的 邻接 和 矩阵， 其 中 上 s(0 涪 表示 保 
留 边 的 百分比 ， 四 表 不 超过 的 最 大 整数 ， 新 的 边 集 合 记 为 


的 分 类 准确 率 就 会 进一步 降低 。 本 文 提出 的 模型 就 很 好 的 


H 
不 同 拓扑 结构 以 及 全 图 分 布 差异 性 较 大 的 图 数据 上 ， 更 
智能 的 选 出 对 于 位 于 中 心 的 目标 节点 对 而 言 ， 重 要 程度 排 
较 高 的 前 4 个 节点 。 这 可 以 使 得 小 图 的 规模 更 加 精准 统 


而 
的 


rH 


部 


MA 
EE 


2 


本 文 的 链接 预测 模型 在 收集 封闭 子 图 的 时 候 ， 有 能 力 随机 地 
看 到 分 布 在 目标 节点 对 的 周围 ， 但 是 原本 重要 性 不 高 的 环境 


不 是 随 着 稠密 程度 和 局 部 拓扑 结构 的 不 同 而 自由 改变 规模 
大 小 ; 另 一 方面 ， 本 文 提出 的 模型 在 提取 封闭 子 图 的 过 程 
， 使 用 了 多 个 启发 式 的 方法 ， 在 综合 考量 了 全 图 信息 和 局 
信息 的 同时 ， 还 保留 了 一 定 的 可 以 调节 的 随机 性 。 这 使 得 


点 ， 从 而 保留 了 模型 对 于 反常 拓扑 结构 的 一 定 的 适应 性 。 
提出 模型 
本 文 提 出 了 一 种 基于 优先 值 的 邻居 图 提取 链接 预测 算法 


(Priority-based Neighbor Subgraph Extraction method for Link 
prediction , PNSEL)， 后 文 简称 PNSEL。 与 SEALUN4 不 同 ， 
PNSEL 能 更 有 针对 性 地 提取 子 图 ， 并 且 根 据 提取 子 图 提取 


时 
AE 


的 节点 重要 性 进行 编号 ， 从 而 在 目标 节点 对 周围 提取 出 有 
够 表达 力 的 封闭 子 图 ， 然 后 对 封闭 子 图 使 用 图 分 类 算法 ， 


预测 中 心 节点 对 之 间 是 否 存在 边 相 连 ， 如 图 2 所 示 。PNSEL 


的 


主要 包括 三 个 步骤 : 1 对 全 图 的 边 进行 筛选 保留 重要 性 高 的 
边 ; 2) 对 训练 集中 的 每 个 节点 对 提取 一 个 封闭 子 图 并 对 其 中 


, 


2 , CAK CY 时， 本 文保 留 所 有 的 原始 边 ， 不 进行 边 筛选 。 
2.3 封闭 子 图 提取 

在 本 节 中 ， 本 文 提 出 了 一 种 新 的 封闭 子 图 提取 方法 ， 主 
要 步骤 如 图 3 所 示 。 这 种 方法 不 仅 能 够 选中 在 目标 节点 对 周 
围 的 影响 力 和 重要 性 高 的 节点 ， 而 且 能 够 保留 一 定 的 随机 性 。 
随 着 跳 数 的 扩散 ， 被 选 入 封闭 子 图 的 可 能 性 将 被 随机 地 分 配 
到 目标 节点 对 附近 的 其 他 节点 上 。 对 于 一 个 给 定 的 目标 节点 
对 0,v)， 本 文 先 从 节点 层面 出 发 ， 在 目标 节点 对 周围 选择 
恰当 的 节点 集合 加 ， 从 而 得 到 封闭 子 图 的 边 集 合 
Ey {Ey v.v EV H 2e2}， 即 端点 均 为 中 的 节点 且 出 现 
在 过 滤 完 的 全 图 边 的 集合 e 中 的 所 有 边 构 成 的 集合 ， 最 终 
提取 的 封闭 子 图 束 是 Gj=02,67)。 


合 目 标 节 点 对 也) 核心 节点 提取 (9) 随 机 节点 提取 (Han Fam 


q3 封闭 子 图 提取 步骤 
Fig.3 Extraction steps of closing subgraph 
在 节点 集合 的 提取 过 程 中 ， 为 了 使 提取 的 子 图 兼 有 具 影 响 
力 和 随机 性 ， 本 文 将 提取 的 节点 集合 分 成 两 个 部 分 : 核心 节 
点 集合 W™ 和 随机 节点 集合 Y” 。 他 们 之 间 满 足 这 样 的 关系 ， 
WEW" OU oM -2 。 本 文 使 用 超 参数 “来 决定 封闭 子 


节点 进行 节点 编号 ; 3) 在 每 一 个 小 图 上 使 用 图 分 类 算法 进 


行 0-1 预测 。 


2. 


i RERO) a| | 一 入 人 提 | | ~ 
态 参数 计 节点 (. rua 测 
teen? H ro) an B E Vm d 
EE 到 节点 节点 P^ ung Hn k 
Z7 \ 提取 / 提取 mm) Í 2 
边 筛选 器 n G ( 分 类 器 预测 
C amsa -— J 图 | | Quir 


、 链接 o 


z 
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图 2 模型 框架 图 
Fig.2 General architecture of the proposed model 
1 问题 定义 
链接 预测 任务 的 目标 是 ， 根 据 已 知 的 图 结构 数据 ， 预 测 


I 任务 要 解决 的 问题 就 是 ， 通 过 在 G 上 的 建 模 和 学 习 ， 对 
VE Eer 里 的 节点 对 之 间 是 否 存 在 连 边 进行 预测 。 


中 可 能 存在 或 者 即将 出 现 的 其 他 边 。 具 体 的 数学 定义 如 下 : 


输入 的 图 数据 为 G=025 ， 其 中 ，Y 表 示 所 有 的 节点 集合 ， 


表示 输入 的 已 知 边 的 集合 ， 其 中 seE 当 且 仅 当 六 wsY H 
与 vj 在 输入 图 数据 中 之 间 存 在 一 条 边 相 连 。 测 试 集 &v 是 
节点 对 2) 组 成 的 集合 ， 满 足 ”%wsyY Heee. gM 


图 节点 集合 的 随机 性 和 影响 力 排序 的 重要 性 大 小 占 比 ， 即 本 
文 使 用 核心 节点 提取 方法 提取 [axl 数量 的 点 ， 使 用 随机 
节点 提取 方法 提取 [0Q-2)x1% 数量 的 点 ， 其 中 : 

ee pee 

"MI ewe " 


2.3.1 核心 节点 提取 
核心 节点 提取 部 分 则 在 提取 出 相对 于 目标 节点 对 和 全 图 
都 具有 高 影响 力 的 重要 节点 。 在 实际 操作 中 ， 本 文 使 用 全 局 
PageRank 和 个 性 化 的 PageRank[l1" 来 表示 节点 的 全 局 影响 力 
和 相对 于 目标 节点 对 的 局 部 影响 力 。 本 文 用 Prvi V RRE 
局 PageRank， 用 zz 表示 以 节点 六 为 出 发 点 计算 出 来 的 节 
点 的 个 性 化 的 PageRank, H ves ev 。 那 么 对 于 一 个 固 
定 的 目标 节点 对 @v)， 他 们 的 周围 节点 vw 的 全 局 影响 力 就 
用 Pr 表示; vw 的 局 部 相对 影响 力 用 分 别 以 两 个 目标 节点 为 
核心 节点 计算 出 来 的 个 性 化 的 PageRank 的 最 大 值 来 计算 ， 
岂 就 是 说 节点 ww 相对 于 目标 节点 对 (Wr) 的 局 部 相对 影响 力 
大 小 为 max(ppri, ppri) 。 同 时 ， 本 文 用 超 参 数 2 来 控制 局 部 影 
响 力 在 核心 节点 排序 评分 中 的 重要 性 大 小 ， 也 就 是 说 本 文 最 
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后 的 周围 节点 优先 值 计算 方法 如 下 : 其 中 ，z 是 一 个 排列 变换 ，IH, 是 ?个 元 素 的 所 有 可 能 的 排 
pi! = Bxmax(ppr;, ppri )+(1— B)x Prv, EV (3) 列 组 合 。 

然后 本 文 可 以 通过 排序 所 有 节点 的 优先 值得 到 优先 值 最 在 跳 数 更 小 节点 区 别 性 更 高 的 情况 下 ， 本 文 提出 了 一 种 
高 的 于 =[xcxfix_node_ num] 个 节点 ， 来 得 到 目标 节点 对 的 核心 。 新 的 编号 方法 ， 即 用 核心 节点 提取 模块 中 计算 的 目标 节点 周 
节点 集合 。 围 节点 优先 值 排序 来 作为 编号 : 最 重要 的 节点 即 两 个 目标 节 
2.3.2 随机 节点 提取 点 对 ， 编 号 为 1， 剩 下 的 其 他 节点 按照 优先 值 降序 依次 编号 

随机 节点 提取 部 分 旨 在 随机 提取 出 目标 节点 对 周围 的 邻 ” 为 3 至 n=fix_node_num， 而 其 他 未 被 选中 的 所 有 节点 均 编 号 
居 节 点 (包括 直接 相 邻 和 间接 相 邻 )。 在 随机 节点 提取 部 分 ， 为 0。 下 面 本 文 来 证 明 这 种 编号 方法 是 一 种 编号 技巧 ; 
所 提 方 法 采用 了 类 似 最 小 哈 希 算法 (MinHash)P9 的 思想 ， 最 a) 如 果 存 在 DD =a), BU s' 经 过 变换 过 的 节点 编号 与 
小 哈 希 算法 是 利用 低 维 编码 的 方式 快速 近似 计算 两 个 集合 的 S 完全 相同 ， 由 于 本 文 除 了 目标 两 节点 对 的 编号 为 1， 其 他 
Jaccard 相似 性 的 算法 。 在 这 个 模块 中 ， 所 提 算 法 将 每 个 盘 。 节点 的 编号 均 为 一 点 一 个 编号 ， 所 以 肯定 可 以 找 一 种 映射 方 
选 出 来 的 节点 集合 视 为 一 个 编码 ， 分 别 编码 目标 节点 对 式 7 使 得 § 中 的 每 个 节点 一 一 对 应 到 5' 中 编号 相同 节点 。 
Cov) HJ P BIKAR: NPN? ， 其 中 p=1,2,3...num_hops ， 这 样 b) 如 果 S=zr(s),4=z(4)， 即 图 (S,4) 5 e] G.A) 是 同 构 
所 筛选 出 来 的 节点 就 能 很 好 的 代表 两 个 中 心 节点 的 邻居 特征 。 图 ， 那 么 以 节点 wes' 为 出 发 点 计算 的 个 性 化 PageRank 与 以 

有 具体 来 说 ， 随 机 节点 提取 模块 提取 节点 的 总 数量 为 节点 vw=z(w) 为 出 发 点 计算 的 个 性 化 PageRank 向 量 必然 完全 


n, =[(1—æ)xfix_node_num], 


(4) 


本 文 先生 成 % 次 相互 独立 的 全 图 节点 随机 排列 的 哈 希 


函数 


图 中 的 某 一 
h:N>V, 


上 采样 


即 每 个 序号 唯 
均匀 的 分 配 提取 的 随机 节点 ， 本 文 的 算法 会 


perm* :7 一 六 ,„k=1,2---m, 


(5) 


A 函数 的 输出 是 0 到 (节点 总 数 -1) 上 的 正 整数 ， 输 入 是 
个 节点 。 同 时 本 文 构建 一 个 固 


定 序号 哈 希 函数 


大 | 而 


相等 ， 
相等 。 


络 结合 ， 构 造 出 


2.4 


个 性 化 PageRank 排序 得 到 的 节点 编号 必然 也 


所 以 ， 


明了 所 提 的 编号 方法 能 够 与 图 卷 积 神经 网 
种 最 具 表 达 力 的 点 集结 构 特征 提取 方法 。 


本 文 证 


图 分 类 
最 后 ， 本 文 


EH REIR? 


的 对 应 图 


上 的 某 一 个 节点 。 为 了 


在 每 一 跳 的 邻居 


node per hop- REM ME 
num hops 


(6) 


个 节点 ， 其 中 Dnode. per. hop/21 个 节点 用 来 编码 w BH 


对 于 每 一 个 p= 


计算 mode_ 


N) 表示 节 


1,2,3...num_hops ， 本 文 使 用 
hys CN ^ (v;)) = hinin,, v, perm* (W) (7) 
per hop/2]]K, fS SX RUM) mifi. HP 
点 的 第 P 跳 邻居 。 同 样 ， 本 文 用 剩 下 的 
[node_per_hop/ 匀 个 节点 来 编码 v， 即 采样 函数 为 
I Q^ (rj) = hmin,, v, permao) (8) 


最 后 ， 将 这 些 选 中 的 节点 加 入 随机 节点 提取 集合 v . 


2.3.3 节点 编号 


节点 编号 部 分 的 
点 按照 重要 性 


给 每 一 个 节 


王 务 是 ， 在 已 经 提取 好 的 封闭 子 图 里 ， 
赋予 一 个 节点 编号 。 为 了 在 有 闻 


特征 


和 无 节点 特征 
并 且 统 一 地 在 不 同 的 封 


的 图 链接 预测 任 
闭 子 图 


中 学 到 局 部 特征 结构 来 预测 核 


心 节 点 之 间 是 否 


we 本 文 需要 使 用 相同 的 规则 给 子 


进行 图 分 类 1 


图 中 的 节点 进行 
| 练 2 


2 在 所 有 的 子 图 进入 图 卷 积 神经 网 络 中 


; AGOBIFIR SETS SR TAS RUD 


点 特征 。 


Zhang 
链接 预测 任 


节点 编号 在 连 统 预测 中 具有 非常 
等 人 的 最 近 提出 了 一 种 


重要 的 意义 。 
E 论 ， ZHEN 企 提出 ， 


节点 编号 


务 本 质 上 是 基于 点 集 来 提取 信息 特征 进行 训练 和 


预测 的 任务 。 如 果 本 文 


那么 


就 会 陷入 对 称 性 的 陷阱 当 


仅仅 关注 节点 本 身 的 拓 寺 
当中 。 


结构 特征 ， 


了 在 使 


该 理论 还 定义 了 
图 卷 积 神经 网 络 来 训 
号 技巧 来 提取 点 集 特征 的 方法 是 一 种 最 


种 编号 技巧 (Labeling Trick)， 并 证 明 


练 节点 特征 的 情况 下 ， 结 合 编 


fnr mi 


提 
编号 


REHE RE, 


特征 


是 取 方 法 。 
技巧 的 定义 如 下 : 给 定 GLA 作为 节点 集合 


表达 力 的 点 集结 构 


和 节点 - 连 


如 果 一 个 编号 向 量 S eRRw 满足 以 下 条 件 就 可 
以 称 为 一 个 编号 技巧 ， 对 于 任意 的 5.4.5,4,z el, ， 


均 有 


a) 目标 节 


b) 排 


点 标识 性 。 


列 变换 相等 性 。 


LO -z(19)s-z(S) 


(9) 


S-z(S).A-z(A)2 D? -z(I?) 


(10) 


务 中 都 进行 子 图 分 类 训练 ， 


子 图 进行 0-1 图 分 类 预测 。 


经 网 络 来 对 每 个 构建 好 的 封闭 
预测 为 0 表示 


存在 边 ， 预 测 


标 节点 对 之 间 不 
为 1 表示 目标 节点 对 之 间 存 在 边 。 
本 文 先 通过 图 卷 积 神经 网 络 提取 子 图 特征 


gi - GNN(G.;) - GNN((V,;.&.;)). (11) 
其 中 ， GNNO 表示 某 一 种 图 卷 积 神经 网 络 函 数 。 
这 里 本 文 主要 使 用 的 是 GraphSAGE00 模 型 。 具 体 来 说 
模型 先 初 始 化 节点 特征 为 图 数据 的 节点 原生 特征 
Zo =X, (12) 
然后 通过 聚合 邻居 节点 的 特征 ， 来 逐 层 更 新 节点 特征 
zo = AGGREGATE, ((zt^, Vu e A (v)]) 
z! 2 o(W' -CONCAT (zi, zvo )) a3) 
其 中 ， te{1,2.…,h-}， 本 文 将 两 个 目标 节点 wv 的 节点 特征 
做 哈达 玛 积 (Hadamard product) 得 到 子 图 的 图 特征 向 量 
8,; 74 OZ 
8; Ix] 2 zIx]x z;[x] (14) 
然后 本 文 将 子 图 特征 通过 多 层 感 知 机 ， 得 到 链接 预测 值 
8j 785 
gÉ 2 ReLU(W,gi ^? &b,),k €{1,2,:+, K -1) (15) 


其 中 ， 


其 /三 o(W. gi," tb) 


c0 是 sigmoid 函数 ， v; 即 为 本 文 对 ww 的 连 边 情况 的 


预测 。 


3 


分 别 进行 了 实验 ， 
从 数据 集 、 
分 析 讨 论 等 方面 对 实验 和 模型 


3.1 


在 这 两 个 数据 集中 每 个 节 
两 个 不 同 网 页 之 间 的 超 链接 ， 节 点 特 4 
特定 的 


实验 及 分 析 
ARÍ 


本 文 在 有 节点 特征 的 数据 集 和 不 含 节点 特征 的 数据 集 上 
与 几 个 基线 模型 进行 了 对 比 实验 。 
评估 指标 、 与 基线 模型 的 对 比 和 模型 
进行 描述 。 


基线 模型 、 


含 节 点 特征 数据 集 
Chameleon, Squirrel 数据 集 来 自 


维基 百科 数据 集 29， 
点 代表 一 个 网 页 ， 而 每 一 条 边 代表 
征 则 表示 网 页 中 存在 的 


民 表 性 的 名 词 含量 。 
Actor 数据 集 P" 取 自 一 个 “电影 -导演 -演员 -作家 ”网 络 ， 数 


据 集中 的 每 


个 节点 表示 一 个 演员 ， 如 果 两 个 演员 在 同一 个 维 


E A RHN E E h 


见 过 ， 那 么 他 们 会 存在 一 条 连 边 ， 节 点 特 


征 反 映 J 


该 演员 的 维基 百科 介绍 页 面 上 的 一 些 关键 词 情 况 。 


定稿 


Cornell, Texas, Wisconsin 数据 集 P1 是 卡耐基 梅 隆 大 学 
同 大 学 计算 机 系 的 校园 网 页 数据 集 。 每 个 数 
发 内 的 每 个 节点 表示 一 个 网 站 ， 网 页 
员工 和 教师 这 五 个 类 别 ， 节 点 之 
闻 的 超 链 接 ， 节 点 特征 也 是 网 页 上 出 现 的 


集 整 理 的 不 


集 来 自 一 个 大 学 ， 数 据 全 
分 为 学 生 、 项 目 、 
的 连 边 表 示 网 页 之 
关键 词 信 息 。 
PubMed，Cora，CiteSeer 数据 集 是 非常 经 典 的 不 同 领域 


课程 、 


REA, F: 


ChinaXiv 合 作 期 刊 
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类 ”框架 下 的 目前 表现 最 佳 的 算法 。 


b) Node2vects1。 该 模型 是 一 种 非常 有 效 的 无 监督 的 图 骨 


通过 随机 游 走 序列 学 习 每 个 节点 的 图 嵌入 表达 。 训 


后 将 目标 两 节点 特征 的 哈达 玛 积 通过 线性 层 和 激活 层 
后 进行 链接 预测 。 
c) MLP。 多 层 感知 机 模型 ， 可 以 使 用 在 含有 节点 特征 
4 图 数据 中 。 模 型 读 入 节点 的 原始 特征 ， 将 两 节点 
征 的 哈达 玛 积 通过 深度 神经 网 络 后 进行 0-1 预测 。 
,, D GraphSsAGE 由 。 该 模型 是 一 种 结合 邻居 采样 和 动态 更 
特征 的 图 卷 积 神经 网 络 模型 。 模 型 先 在 全 图 进行 卷 积 
操作 更 新 所 有 节点 的 特征 ， 再 取出 目标 节点 对 的 特征 向 量 进 
行 建 模 预 测 链 接 是 否 存 在 。 
评估 指标 
链接 预测 任务 是 一 种 二 分 类 任务 ， 测 试 集 由 未 知 连 边 情 
况 的 节点 对 组 成 ， 其 中 50% 的 节点 对 在 原 数 据 集 上 存在 边 相 
本， 但 是 在 训练 数据 中 连 边 被 删 去 不 可 见 ， 另 外 50% 的 节点 


的 原始 特 


T 


对 是 随机 采样 取出 的 在 原 图 中 本 来 就 没有 连 边 的 节点 对 ， 所 


的 论文 引用 网 络 数据 集 。 在 这 三 个 数据 集中 ， 每 个 节点 
表示 一 篇 论文 ， 节 点 之 间 的 连 边 表示 论文 之 间 的 互相 引用 3 
系 ， 节 点 特征 表示 论文 的 代表 词 描 述 信息 。 
这 9 个 含 节 不 同 的 背景 ， UB ^ 
的 大 小 规模 和 平均 节点 能 够 很 好 的 综合 反映 PNSEL 
在 不 同 结构 的 数据 集 T 具体 的 数据 规模 描述 如 表 1 
所 示 。 
表 1 有 节点 特征 数据 集 的 统计 信息 
Tab.1 Statistics of datasets with node features 
Dataset Nodes Edges Avg. Degree Features 
Chameleon 2271 36101 15.85 2325 
Squirrel 5201 217073 41.74 2089 
Actor 7600 33544 4.41 931 
Cornell 183 295 1.61 1703 
Texas 183 309 1.69 1703 
Wisconsin 251 499 1.99 1703 
PubMed 19717 44338 2.25 500 
Cora 2708 5429 2.00 1433 
CiteSeer 3312 4732 1.43 3703 


闵 正 负 样 本 比例 为 1:1. 
本 文采 用 AUC, Fl-score, precision 和 recall 作为 评价 
指标 ， 综 合 的 评价 预测 的 准确 性 。 有 具体 计算 方法 为 


3.2 无 节点 特征 数据 集 


本 文 使 用 了 8 个 无 节点 特征 数据 集 ， 分 别 是 美国 航线 数 


国政 治 博 


隐 相 


中 代谢 物 的 成 对 


路 


据 集 USAir, WARE 


客 网 络 PBB0， 和 蛋 
Fk E E AE t 
结构 PowerP?l, 


TA 


器 构建 


究 人 员 的 合作 关系 网 络 NSB, 
质 相互 作用 网 络 YeastP?1, 25 Mi 
网 络 C.elegansB3]， 美 国 西部 电网 分 布 
的 互联 网 络 图 RouterP^l, AUT 
反映 网 络 E.coliB5]。 他 们 具有 不 同 的 背景 、 


数据 规模 、 平 均 度 数 和 聚 类 系数 ， 具 体 数值 分 布 如 表 2 所 示 。 


表 2 无 节点 特征 数据 集 的 统计 信息 


Tab.2 Statistics of datasets without node features 


rH, precision 即 精准 率 ， 表 示 分 类 器 判定 的 正 例 中 的 正 样 
|, recall 即 召 回 率 ， 表 示 正 样本 中 被 分 类 器 判定 为 了 
jo TP 表示 预测 为 正 例 的 正 样本 数量 ， FPE TWO 
为 正 例 的 负 样 本 数量 ，FN 表示 预测 为 负 例 的 正 样 本 数量 。 


M x(M +1) 
2 (16) 


MxN 


rank, 表示 序号 为 i 的 样本 的 预测 概率 在 所 有 样本 从 小 
1 大 排序 后 的 排序 序号 ，M 、N 表示 是 正 样本 和 负 样 本 的 
个 数 ， PositiveClass 表示 正 样 本 的 序号 集合 。 


TP TP 
recision = , recall = 1 
P TP+FP TP+FN ( 7) 


T 


rn 


& 


Fl — score = 2 x Precision x recall (18) 


precision + recall 


35 参数 设置 


Tr 


本 文 在 9 个 含 节 点 特征 数据 集 和 8 个 不 含 节点 特征 的 数 


上述 的 基线 模型 进行 了 实验 。 对 于 Node2vec 模型 ， 


采用 的 随机 洲 走 步 长 为 10， 窗 
128 维 ， 然 后 本 文 使 用 相同 的 训练 集 验证 集 测 试 


长 度 为 5， 训练 的 节点 


Node2vec 得 到 的 节点 特征 为 输入 训练 MLP 分 类 


模型 来 做 链接 预测 。 本 文 在 有 节点 特征 的 数据 集 上 使 用 
MLP 方法 作为 一 个 基线 模型 ， 使 用 节点 原生 特征 作为 MLP 
痊 入 特征 向 量 ，MLP 的 层 数 设置 为 3 层 ， 隐 藏 层 的 
EENS 256 维 。 对 于 GraphSAGE 模型 ， 在 有 节点 特征 
的 数据 集 上 ， 本 文采 用 了 两 种 训练 方式 。 一 种 是 初始 化 节点 


Dataset Nodes Edges Avg. Degree 
USAir 332 2126 6.40 
NS 1589 2742 1.73 
PB 1222 16714 13.68 
Yeast 2375 11693 4.92 
C.ele 297 2148 7.23 
Power 494] 6594 1.33 
Router 5022 6258 1.25 
E.coli 1805 15660 8.68 
所 有 数据 集 均 随机 选取 原 图 中 80% 的 边 作为 训练 集 里 
可 见 边 ，10% 的 边 作为 测试 集 里 面 的 正 样本 ， 并 随机 选取 等 
数量 的 不 存在 边 相 连 的 节点 对 作为 测试 集 里 面 的 负 样本 ， 剩 
下 的 10% 的 边 作为 验证 集 里 的 正 样本 ， 也 同时 独立 抽取 等 数 


基线 模型 


量 的 训练 集 里 不 存在 边 相 连 下 


于 所 提 方 法 是 建 > 


本 文选 择 的 一 些 
a) SEAL, 


要 的 对 
方法 ， 


测算 法 ， 目 前 采用 这 个 相 
SEAL 是 主 
的 链接 预测 


在 “提取 子 图 + 图 分 类 ”框架 下 的 预 


比 对 
考虑 到 
了 代表 性 


的 节点 对 作为 验证 集 里 的 负 样 


句 量 为 节点 原生 特征 ， 固 定 输入 的 节点 特征 向 量 ， 这 种 
型 记 为 GraphSAGE1!;， 第 二 种 是 随机 初始 化 节点 的 特征 向 
量 ， 然 后 将 特征 向 量 当 成 参数 进行 训练 ， 这 种 模型 记 为 
GraphSAGE?。 在 不 含 节点 特征 的 数据 集 上 ， 本 文 只 采用 了 


台 化 节点 特征 向 量 参数 ， 训练 特征 向 量 参数 的 方式 ， 
E GraphSAGE。GraphSAGE 的 卷 积 层 数 设置 为 2 层 ， 


4 向 量 维 数 同样 设置 为 256 维 。 对 于 SEAL 模型 ， 在 


的 算法 只 有 SEAL 模型 ， 所 L 章 中 己 有 实验 的 数据 集 ， 本 文采 用 与 SEAL 论文 中 相同 


的 实验 设置 。 在 原文 章 中 没有 的 数据 集 ， 本 文 使 用 与 原文 间 


。 近 些 年 来 也 涌现 了 一 下 不 同 思 路 
算法 的 角度 不 同 ， 这 里 不 做 对 比 。 
的 模型 有 : 


通过 图 分 类 进行 链 


该 模型 使 月 


数据 集 类 似 的 参数 实验 ， 并 对 主要 的 超 参 实验 了 主要 
可 能 的 取 值 ， 选 择 最 佳 结 果 作 为 实验 最 终结 果 。 对 于 本 文 提 
算法 PNSEL， 本 文 同样 使 用 了 256 维 的 隐藏 层 维 数 ， 


日 目标 节点 对 周围 的 k 跳 邻居 小 


接 预测 ， 是 建立 在 “提取 子 图 + 图 


司 围 节点 优先 值 时 ， 局 部 影响 力 占 比 超 参 数 8 本 文 在 


录用 定稿 


[0, 0.3, 0.5, 0.7, 1] 这 几 个 数值 中 进行 了 实验 。 在 分 配 核心 节 
点 提取 比例 时 ， 核 心 节 点 占 比 超 参数 wx 本 文 在 [0, 0.3, 0.5, 0.8, 
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要 用 到 的 拓扑 信息 ， 但 是 在 其 他 的 大 部 分 数据 上 则 无 法 保持 
很 好 的 效果 。MLP 模型 在 chameleon, Wisconsin, CiteSeer 


1]。 本 文 模型 使 用 的 编号 方式 为 双 半 径 编 号 法 和 优先 值 排序 
编号 法 ， 使 用 的 图 分 类 模型 为 DGCNNB49 和 GraphSAGE， 
选择 最 佳 结 果 作 为 实验 的 最 终结 果 。PNSEL 与 SEAL 均 将 
batch size 数量 设置 为 32。 上 述 模型 均 使 用 各 数据 集 上 最 佳 
的 学 习 率 ， 训 练 的 epoch 数 均 为 100， 并 进行 独立 实验 10 次 ， 
计算 正确 率 的 均值 和 方差 。 
3.6 与 基线 模型 的 对 比 
本 文 分 别 在 有 节点 特征 和 无 节点 特征 两 个 情况 下 分 析 本 
文 模型 的 性 能 。 表 3~8 是 在 有 节点 特征 的 9 个 数据 集 上 的 
AUC, Fl-score, precision 和 recall 的 实验 结果 (precision 和 
recall 的 结果 为 10 次 独立 实验 的 均值 )。 

表 3 与 基线 模型 在 有 特征 数据 集 (a) 上 的 比较 (AUC) 
Tab.3 Comparasion with baselines on datasets (a) with node feature(AUC) 


method Actor Chameleon Citeseer Cora 
PNSEL 84.86 +0.24 99.78 土 0.01 90.07 士 0.08 91.59 + 0.24 
SEAL 75.28 +0.56 99.60 土 0.06 90.53 +0.84 90.67 土 0.02 
Node2vec 78.52 土 0.69 98.28 土 0.02 78.34 0.35 86.08 土 0.55 
MLP 53.03 + 0.23 97.14 土 0.05 91.51 £0.12. 82.58 + 0.76 
GraphSAGE1 82.00+0.16 99.66 +0.02 92.69+0.37 93.88 + 0.47 
GraphSAGE2 80.72 士 0.61 99.27+0.02 72.61 +2.26 77.97 + 1.37 

表 4 与 基线 模型 在 有 特征 数据 集 (a) 上 的 比较 (Fl-score) 


Tab. 4 Comparasion with baselines on datasets(a) with node feature(F1-score) 


上 表现 也 不 错 ， 其 中 Wisconsin 的 预测 AUC 比 其 他 基线 模型 
都 高 ， 说 明 对 于 某 些 含 节 点 特征 的 图 网 络 结构 而 言 ， 节 点 的 
原生 特征 对 于 链接 预测 起 到 了 首要 的 作用 。GraphSAGE x 
型 在 使 用 和 不 使 用 原生 特征 的 情况 下 ， 总 的 来 说 模型 表现 差 


n 


异 不 大 ， 在 大 部 分 数据 集 上 均 能 有 不 错 的 效果 ， 其 中 在 
CiteSeer 和 Cora 上 的 AUC 完全 超过 其 他 基线 模型 但 是 Fl- 


score 却 比较 低 ， 说 明 图 神经 网 络 模型 对 于 链接 预测 来 说 的 
表达 力 很 强 ， 但 是 存在 正 负 例 的 预测 准确 性 不 均衡 的 问题 。 
SEAL 模型 综合 了 以 上 模型 的 优点 ， 是 所 有 数据 集 上 平均 表 
现 第 二 好 的 模型 ， 说 明 “ 子 图 提取 + 图 分 类 ”的 框架 在 链接 预 
测 问题 上 具有 非常 好 的 效果 ， 但 是 仍 有 一 定 的 提升 空间 。 而 
PNSEL 在 大 部 分 的 数据 集 上 均 表 现 出 了 显著 高 于 SEAL 的 
AUC 和 了 1-score， 说 明 本 文 的 改进 是 非常 有 效 且 合理 的 。 
表 7 与 基线 模型 在 有 特征 数据 集 (b) 上 的 比较 (El1-score) 
Tab. 7 Comparasion with baselines on datasets(b) with node feature(F1-score) 


method Cornell PubMed Squirrel Texas Wisconsin 
PNSEL 78.77 +3.06 92.66 + 0.04 97.87 +0.10 69.62 4.07. 71.80 + 5.40 
SEAL 72.80 +5.31 91.30 +0.78 97.21 € 0.52 49.70 € 8.40 42.51 & 36.93 
Node2vec 55.56 € 24.85 68.55 € 0.95 95.42 + 0.09 12.73 + 28.46 66.67 + 0.00 
MLP 67.42: 4.59 84.93 + 0.36 88.29 + 0.07 69.00 + 4.47. 71.75 + 10.35 


GraphSAGE1 29.75 X 29.63 76.12 + 1.44 95.99 + 0.29 27.15 € 13.71. 41.25 + 5.48 


GraphSAGE2 17.74 + 5.74 62.52 € 0.89 96.71 + 0.08 45.43 + 26.35 39.63 + 9.58 


method Actor Chameleon Citeseer Cora 
PNSEL 76.24: 0.62 98.34€ 0.06 82.80 土 0.44 82.812 0.91 
SEAL 68.25 0.65 97.86 土 0.28 80.15+0.05 82.192 0.77 
Node2vec 66.37 + 1.04 94.37 € 0.13 69.80 +2.07 73.62 + 6.24 
MLP 53.02 +0.76 92.06 +0.17 83.97 +0.83 73.23 + 2.70 
GraphSAGE1 38.11 +2.02 97.17+0.08 53.27 +2.36 65.31 0.94 
GraphSAGE2 52.98 +2.12 96.46 +0.05 40.33 +1.62 43.86 € 2.00 


表 5 与 基线 模型 在 有 特征 数据 集 (a) 上 的 比较 (Precision, Recall) 
Tab.5 Comparasion with baselines on datasets(a) with node feature 


Actor Chameleon Citeseer Cora 


表 8 与 基线 模型 在 有 特征 数据 集 (b) 上 的 比较 (Precision, Recall) 


Tab.8 Comparasion with baselines on datasets(b) with node feature 


Cornel PubMed Squirrel Texas Wisconsin 


method 
Pre Rec Pre Rec Pre Rec Pre Rec Pre Rec 


PNSEL 83.85 74.71 90.64 94.77 98.35 97.4 92.38 56.25 77.23 70.00 
SEAL 86.75 62.75 93.21 89.47 98.02 96.41 100.0 33.33 44.85 40.58 
Node2vec 60.00 81.18 98.80 52.50 97.89 93.06 10.00 17.50 50.00 100.0 
MLP 84.40 56.47 82.58 87.48 90.31 86.35 53.71 97.50 92.10 60.00 
GraphSAGE1 60.00 21.57 97.99 62.26 98.57 93.55 93.33 16.67 100.0 26.09 


GraphSAGE2 100.0 9.80 97.49 46.02 98.62 94.86 96.97 33.33 85.00 26.09 


mopoa Pre Rec pre Rec Pre Rec Pre Rec 表 9~11 是 在 不 含 节 点 特征 的 8 个 数据 集 上 的 AUC、Fl- 
PNSEL 79.38 73.45 98.30 98.38 81.68 83.96 8733 78.80 score, precision 和 recall 的 实验 结果 (precision 和 recall 的 结 
SEAL 69.84 66.91 97.51 97.80 90.90 7172 91.55 74.57 果 为 10 次 独立 实验 的 均值 )。 对 于 不 含 节 点 特征 的 数据 集 ， 

Node2vec 52.31 91.06 97.27 91.64 68.87 76.44 68.71 86.07 Node2vec 可 以 比较 好 的 学 到 数据 中 的 结构 信息 ， 与 
MLP 5246 53.62 89.40 94.91 81.62 86.90 80.99 67.51 


GraphSAGEi: 95.88 23.79 98.58 95.80 099.40 36.41 98.85 448.77 
GraphSAGE» 92.31 37.18 97.94 95.02 92.77 25.79 94.92 28.53 
表 6 与 基线 模型 在 有 特征 数据 集 (b) 上 的 比较 (AUC) 
Tab.6 Comparasion with baselines on datasets(b) with node feature(AUC) 


method Cornell PubMed Squirrel Texas Wisconsin 
PNSEL 88.51 +2.10 97.70+0.02 99.76+0.01 84.45+2.57 81.63+6.18 
SEAL 82.24+2.69 97.37 +0.37 99.64+0.32 81.25+3.85 71.01 + 1.97 
Node2vec 63.81 +6.81 80.14+0.65 98.87+0.01 62.42+10.09 60.76 =+ 5.57 
MLP 74.12: 0.90 91.97 土 0.20 95.77 +0.05 76.17 € 7.50 82.23 + 5.95 


GraphSAGE1 76.59+3.41 92.99 上 0.15 99.29 +0.03 79.95 4 1.26. 79.62 4: 1.05 
GraphSAGE2 76.1847.21 93.09+0.06 99.46: 0.01. 78.84 23.83. 76.56 & 4.63 
如 表 中 所 示 ， 对 于 有 节点 特征 的 数据 ，PNSEL 在 社交 
网 络 、 论 文 引用 、 生 物 关 联 等 网 络 关系 数据 中 与 其 他 基线 模 
型 相 比 ， 都 表现 出 了 最 佳 的 平均 AUC 和 Fl-score， 同 时 ， 
precision 和 recall 的 表现 也 非常 均衡 ， precision 和 recall Zx 
合 来 看 的 平均 情况 最 佳 ， 这 说 明 本 文 的 模型 具有 很 好 的 性 能 
和 优秀 的 适应 性 。 
Node2vec 模型 在 部 分 数据 上 也 有 比较 优良 的 表现 ， 说 
明 无 监督 的 图 嵌入 方法 也 能 在 一 定 程度 上 提取 出 链接 预测 需 
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GraphSAGE 的 表现 不 相 上 下 ， 但 与 表现 最 佳 的 模型 仍 有 一 
定 的 显著 差距 。 这 说 明 在 不 存在 节点 特征 的 情况 下 ， 这 两 种 
模型 在 不 同 背景 不 同 特质 的 图 数据 中 不 能 稳定 预测 链接 是 否 
存在 。SEAL 明显 的 表现 由 于 另外 两 个 模型 ， 同 时 PNSEL 也 
相 比 SEAL 有 显著 的 性 能 提升 ， 说 明 所 提 模 型 不 仅 在 对 节点 
特征 利用 上 有 更 好 的 性 能 ， 而 且 在 不 存在 节点 特征 的 情况 下 ， 
PNSEL 也 能 更 有 效 地 利用 子 图 信息 作出 预测 。 
表 9 与 基线 模型 在 无 特征 数据 集 上 的 比较 (AUC) 
Tab.9 Compare with baselines on datasets without node feature(AUC) 


cr 


Dataset PNSEL SEAL Node2vec GraphSAGE 
C.ele 90.33 + 0.21 82.44 € 0.82 74.12 + 0.37 86.75 + 0.72 
E.coli — 97.74€ 0.03 — 95.33 0.12 — 94.504 0.06 | 94.40 + 0.07 

NS 98.1732 0.04 — 91.18x 1.37 94.04 + 0.08 81.11 + 2.07 
PB 94.94 0.02 — 92.71 0.085 89.53+0.32 94.37 + 0.04 

Power 92.28 £0.10 — 7221x1.38 — 80.16-0.532 64.97 3.24 
Router 94.64 +0.34 — 81.86-0.60 76.08 + 2.35 77.68 + 2.33 
USAir 96.55 + 0.11 94.05+0.65 84.57+0.64 94.62 + 0.73 
Yeast 97.87+0.05  91.71+0.13 94.07+0.24 93.85 + 0.38 

3.7 ”模型 分 析 和 讨论 
本 节 通 过 控制 改变 单一 维度 的 参数 进行 实验 来 说 明 本 文 
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表 10 与 基线 模型 在 无 ——— score) 
Tab. 10 Comparasion with baselines on datasets without node feature(F1-score) 


Dataset PNSEL SEAL Node2vec GraphSAGE 
C.ele 82.95 + 0.91 73.96 + 1.16 61.56 + 2.45 71.32 € 5.34 
E.coli 92.95 + 0.23 89.37 + 0.15 87.49 + 1.23 88.22 + 0.14 

NS 94.03 + 0.12 83.21 € 2.05 91.06 + 0.81 70.98 + 0.30 
PB 88.65 + 0.30 84.85 + 0.54 75.22 + 7.90 87.78 + 0.41 

Power 84.14 0.48 54.59 + 0.70 69.00 + 2.44 15.27 € 2.24 
Router 86.04 0.49 73.80 € 1.18 66.34 + 0.33 37.17 € 0.76 
USAir 90.18 + 0.66 88.24 + 0.76 68.93 + 3.30 84.38 + 1.76 
Yeast 93.48 + 0.26 86.19 + 0.28 82.00 + 9.37 85.44 + 0.07 

表 11 与 基线 模型 在 无 特征 数据 集 上 的 比较 (Precision, Recall) 
Tab. 11 Comparasion with baselines on datasets without node feature 
Dataset PNSEL SEAL Node2vec GraphSAGE 

Pre 79.47 78.50 76.46 86.06 
C.ele 

Rec 86.76 69.94 51.59 61.21 

Pre 95.80 92.58 95.86 96.66 
E.coli 

Rec 90.27 86.43 80.52 81.15 

Pre 97.27 88.31 95.34 94.93 

NS 
Rec 91.00 78.95 87.23 56.69 
Pre 87.67 89.51 67.04 87.27 
PB 

Rec 89.67 80.65 91.38 88.31 

Pre 80.82 81.68 91.51 86.41 
Power 

Rec 87.76 41.02 55.99 8.40 

Pre 86.02 84.06 50.13 97.07 
Router 

Rec 86.13 65.81 98.05 22.99 

Pre 90.12 89.78 53.49 96.02 
USAir 

Rec 90.25 86.79 97.74 75.31 

Pre 95.00 92.97 75.15 97.76 
Yeast 

Rec 92.02 80.33 93.17 75.88 


3.7.1 收 盆 性 分 析 

AUC 是 模型 训练 时 的 主要 指示 性 指标 ， 
训练 次 数 与 正确 率 (AUC) 变 化 曲线 来 观察 模型 的 收敛 
如 图 4 所 示 。 
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(a) 有 特征 数据 集 


(b) 无 特征 数据 
图 5 不 同 的 核心 节点 占 比 参数 的 影响 

Fig. 5 
核心 节点 比重 参数 对 链接 预测 任务 的 准确 性 


Influence of alpha 


可 以 看 出 ， 
在 不 同 的 数据 集 上 均 具 有 明显 的 影响 。 其 中 ， 在 含 节点 特征 
的 数据 集 上 ， 不 同 的 数据 往往 有 着 不 同 的 最 佳 选择 ， 过 大 
或 者 过 小 均 不 能 达到 最 佳 的 预测 准确 性 。 这 说 明 这 些 图 结构 
更 适合 核心 节点 抽取 与 随机 节点 抽取 结合 的 方式 。 
而 在 不 含 节点 特征 的 数据 集 上 ， 本 文 注意 到 他 们 的 最 佳 
水 平 往往 出 现在 为 1 时， 且 随 着 4 变 大 预测 准确 性 大 致 呈 
上 升 趋势 ， 说 明 在 这 类 不 含 节 点 特征 的 数据 集 上 ， 完 全 使 用 
核心 节点 抽取 是 最 佳 的 提取 封闭 子 图 的 方法 。 
3.7.3 局 部 影响 力 占 比 参数 影响 

局 部 影响 力 占 比 参数 4 表示 的 是 本 文 在 计算 周围 节点 优 
先 值 时 ， 局 部 影响 力 特征 所 占 的 比重 。8 越 大 ， 节 点 的 局 部 
影响 力 在 优先 值 里 的 比重 就 越 大 ， 节 点 的 全 图 影响 力 在 优先 
值 里 的 比重 就 越 小 。 本 文选 取 了 同样 三 个 含 节点 特征 数据 集 
和 两 个 不 含 节 点 特征 的 数据 集 进行 实验 ， 在 各 自 最 佳 参 数 的 
其 他 参数 保持 不 变 的 情况 下 ， 改 变 8 进行 实验 ， 独 立 进行 3 
次 实验 取 平 均 结果 ， 结 果 如 图 6 所 示 。 
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(b) 无 特征 数据 集 


(a) 有 特征 数据 集 
图 6 不 同 的 局 部 影响 力 占 比 参数 的 影响 
Fig.6 Influence of beta 
本 文 可 以 看 到 ， 除 了 actor 数据 对 于 5 不 敏感 之 外 ， 其 


他 数据 集 的 准确 性 均 受 48 的 取 值 影响 比较 明显 。 其 中 ， 在 
Wisconsin, Texas 和 Celegans 上 ， 模 型 的 正确 率 均 随 着 2 的 
增加 而 增加 。 这 说 明 对 于 这 些 数据 而 言 ， 考 虑 节点 优先 值 时 
仅 考 虑 局 部 影响 力 是 最 佳 选择 ， 全 局 影响 力 对 于 局 部 的 节点 
预测 准确 性 意义 不 大 。 而 在 Power 数据 集 上 ， 本 文 观测 到 ， 
当 8 取 0 或 者 1 时 ， 模 型 具有 最 佳 表现 ， 说 明 仅 选取 全 图 最 
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(a) 低 正确 率 数 据 集 收敛 曲线 (b) 高 正确 率 数 据 集 收敛 曲线 当 1 
图 4 正确 率 收 全 曲线 重要 的 节点 或 者 仅 选 取 局 部 重要 的 节点 都 能 为 链接 预测 提供 
Fig. 4 Convergence of AUC 足够 的 有 效 信息 ， 而 两 者 结合 反而 会 使 得 筛选 变 得 低 效 。 

本 文选 择 了 5 个 有 特征 数据 集 和 6 个 无 特征 数据 集 的 训 4 ”结束 语 
练 情况 进行 绘图 ， 分 别 用 虚线 和 实 线 表示 。 由 于 正确 率 的 量 PIER 
级 不 同 ， 本 文 将 曲线 分 开 绘制 在 两 张 图 上 。 从 图 上 可 以 看 出 ， 本 文 对 链接 预测 领域 目前 表现 最 佳 的 模型 提出 了 一 种 改 
在 所 有 的 数据 集 上 ， 虽 然 正确 率 的 收敛 速度 和 曲线 形状 有 所 进 的 方案 ， 基 于 “ 子 图 提取 + 图 分 类 ”的 链接 预测 结构 ， 提 出 
不 同 ， 但 是 最 终 正 确 率 都 收敛 到 了 某 一 特定 值 ， 说 明 了 一 种 基于 优先 值 的 邻居 子 图 提取 连接 预测 算法 (PNSEL)。 
PNSEL 具有 良好 的 收敛 性 。 所 提 算 法 可 以 在 固定 小 图 规模 的 情况 下 ， 结 合 局 部 图 结构 和 
3.7.2 核心 节点 占 比 参数 影响 全 图 结构 信息 ， 选 出 对 于 目标 节点 对 最 为 重要 的 周围 节点 ， 

核心 节点 比重 参数 a 表示 的 是 在 封闭 子 图 提取 时 ， 按 节 并 保留 了 一 定 的 随机 性 以 应 对 差异 化 的 图 结构 。 通 过 大 量 在 
点 优先 值 提取 的 节点 数量 占 节 点 总 数 的 比例 。 本 文选 取 了 三 不 同 背景 的 真实 数据 集 上 的 实验 ， 本 文 将 PNSEL 与 具有 代 
个 含 节 点 特征 数据 集 和 两 个 不 含 节点 特征 的 数据 集 进行 实验 ， 表 性 的 几 个 基线 模型 进行 对 比 ， 证 明了 PNSEL 相 比 改进 前 
在 各 自 最 佳 参 数 的 其 他 参数 保持 不 变 的 情况 下 ， 改 变 & 进行 能 显著 带 来 正确 率 的 提高 ， 同 时 也 通过 拆 解 实验 证 明了 主要 
实验 ， 独 立 进行 3 次 实验 取 平 均 结 果 ， 如 图 5 所 示 。 参数 的 影响 性 。 
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